Probabilités et statistiques : La science de l'incertitude : Les statistiques comme variables aléatoires : La distribution d'échantillonnage

En inférence statistique, nous passons de l'observation de points de données individuels à l'analyse d'une **statistique** — une application fonctionnelle $Y = h(X_1, X_2, \dots, X_n)$ d'une suite d'échantillons. Comme l'échantillon sous-jacent est composé de variables aléatoires, la statistique elle-même est une variable aléatoire, et sa loi de probabilité est appelée la **distribution d'échantillonnage**.

La statistique comme application

Une statistique est formellement définie comme une fonction $h: \mathbb{R}^n \to \mathbb{R}$. Nous définissons la probabilité que la statistique tombe dans un ensemble $B$ en utilisant l'image inverse :

$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$

Le fondement des variables i.i.d.

Pour un échantillon de variables aléatoires indépendantes et identiquement distribuées (i.i.d.), la probabilité conjointe d'un point d'échantillon spécifique $(x_1, \dots, x_n)$ est le produit de leurs probabilités marginales : $p(x_1)p(x_2)\dots p(x_n)$. Ce produit sert de poids pour chaque point lors du calcul de la probabilité totale que la statistique prenne une valeur spécifique.

Exemple 4.1.1 : La moyenne géométrique

Considérons une population discrète où $p_X(1) = 1/2$, $p_X(2) = 1/4$ et $p_X(3) = 1/4$. Nous tirons un échantillon de taille $n=2$ ($X_1, X_2$) et définissons notre statistique comme la moyenne géométrique : $Y_2 = (X_1 X_2)^{1/2}$.

Pour trouver la distribution de $Y_2$, nous listons les 9 paires possibles $(X_1, X_2)$, calculons leur probabilité conjointe et la valeur correspondante de $Y_2$ :

Paire $(x_1, x_2)$	Prob $P(x_1)P(x_2)$	$Y = \sqrt{x_1 x_2}$
(1, 1)	1/4	1,000
(1, 2), (2, 1)	1/8 + 1/8 = 1/4	1,414
(1, 3), (3, 1)	1/8 + 1/8 = 1/4	1,732
(2, 2)	1/16	2,000
(2, 3), (3, 2)	1/16 + 1/16 = 1/8	2,449
(3, 3)	1/16	3,000

Distributions exactes versus asymptotiques

Avant de passer aux théorèmes limites comme le Théorème central limite (TCL), nous devons maîtriser la "distribution exacte". Cela implique de calculer la fonction de masse ou de densité spécifique d'une statistique pour une petite valeur finie de $n$. Lorsque la forme analytique devient intraitable, nous recourons à des simulations numériques telles que les **approximations de Monte Carlo**.

🎯 Principe fondamental

Une distribution d'échantillonnage est la distribution d'une variable aléatoire correspondant à une fonction d'une suite i.i.d. Elle constitue le pont entre les données brutes et l'inférence scientifique.

QUESTION 1

Supposons que $X_1, X_2, X_3$ soient i.i.d. selon la distribution de l'exemple 4.1.1. Quelle est la probabilité que la moyenne géométrique $Y_3 = (X_1 X_2 X_3)^{1/3}$ soit égale à 1 ?

$1/2$

$1/4$

$1/8$

$1/27$

QUESTION 2

Un dé à six faces équilibré est lancé $n = 2$ fois indépendamment. Laquelle des options suivantes représente la probabilité que la moyenne d'échantillon soit exactement 1,5 ?

$1/36$

$2/36$

$3/36$

$1/6$

QUESTION 3

Dans une urne contenant une proportion $p$ de jetons marqués 0 et $1-p$ marqués 1, un échantillon de taille $n=2$ est tiré avec remise. Quelle est la probabilité que la moyenne d'échantillon soit 0,5 ?

$p^2$

$(1-p)^2$

$2p(1-p)$

$p(1-p)$

QUESTION 4

Quel objet mathématique représente l'ensemble de tous les points d'échantillon $(x_1, \dots, x_n)$ qui font que la statistique $h$ tombe dans un intervalle spécifique $B$ ?

La fonction de densité conjointe

L'image inverse $h^{-1}B$

La fonction génératrice des moments

L'application de la valeur attendue

QUESTION 5

Lors de l'approximation de l'intégrale $\int_{-\infty}^{\infty} \cos^2(x)e^{-x^2/2} dx$ par la méthode de Monte Carlo, quelle distribution devez-vous échantillonner pour simplifier le calcul ?

Uniforme(0, 1)

Poisson(1)

Normale standard $N(0, 1)$

Exponentielle(1)